AI资讯新闻榜单内容搜索-DeepSeek R

训练加速1.8倍，推理开销降78%！精准筛选题目高效加速RL训练丨清华KDD

以DeepSeek R1为代表的一系列基于强化学习（RLVR）微调的工作，显著提升了大语言模型的推理能力。但在这股浪潮背后，强化微调的代价却高得惊人。

来自主题: AI技术研报

8870 点击 2026-02-10 14:19

DeepSeek R1发布一年了，不卷功能、不融资、不着急，凭什么「硬控」硅谷

「服务器繁忙，请稍后再试。」

来自主题: AI资讯

6504 点击 2026-01-20 16:40

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

两天前，DeepSeek悄无声息地把R1的论文更新了，从原来22页「膨胀」到86页。DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！

来自主题: AI技术研报

8693 点击 2026-01-08 11:44

体验英伟达 AI 个人超算「核弹」DGX Spark，能微调出 DeepSeek R2 吗

最近，APPSO 终于拿到了这台来自黄仁勋倾情推荐的个人超算，英伟达 DGX Spark；到手的第一感觉，就是「小而美」。这电脑也太小了，没有 Mac Studio 那般笨重，可能就和 Mac Mini 差不多大；然后是银色的亮和用来散热的金属丝网又让它有点不一样，是专属的硬核美感。

来自主题: AI资讯

7984 点击 2025-12-31 15:19

NeurIPS 2025 | DynaAct：DeepSeek R1之外，探索大模型推理的另一条道路

大模型推理的爆发，实际源于 scaling 范式的转变：从 train-time scaling 到 test-time scaling（TTS），即将更多的算力消耗部署在 inference 阶段。典型的实现是以 DeepSeek r1 为代表的 long CoT 方法：通过增加思维链的长度来获得答案精度的提升。那么 long CoT 是 TTS 的唯一实现吗？

来自主题: AI技术研报

8103 点击 2025-11-30 09:30

AI终于学会「读懂人心」，带飞DeepSeek R1，OpenAI o3等模型

“What is meant often goes far beyond what is said, and that is what makes conversation possible.” ——H. P. Grice

来自主题: AI技术研报

7841 点击 2025-11-21 09:16

啊？微博7800美元训的大模型，数学能力超了DeepSeek-R1

近日，微博正式发布首个自研开源大模型VibeThinker，这个仅拥有15亿参数的“轻量级选手”，在国际顶级数学竞赛基准测试上击败了参数量是其数百倍的、高达6710亿的DeepSeek R1模型。

来自主题: AI资讯

8027 点击 2025-11-18 16:34

小米最新大模型成果！罗福莉现身了

小米的最新大模型科研成果，对外曝光了。就在最近，小米AI团队携手北京大学联合发布了一篇聚焦MoE与强化学习的论文。而其中，因为更早之前在DeepSeek R1爆火前转会小米的罗福莉，也赫然在列，还是通讯作者。

来自主题: AI技术研报

8382 点击 2025-10-17 16:44

700万参数击败DeepSeek R1等，三星一人独作爆火，用递归颠覆大模型推理

来自加拿大蒙特利尔三星先进技术研究所（SAIT）的高级 AI 研究员 Alexia Jolicoeur-Martineau 介绍了微型递归模型（TRM）。这个 TRM 有多离谱呢？一个仅包含 700 万个参数（比 HRM 还要小 4 倍）的网络，在某些最困难的推理基准测试中，

来自主题: AI技术研报

8810 点击 2025-10-10 13:08

第一性原理视角下的MoE推理的经济学分析

随着DeepSeek R1、Kimi K2和DeepSeek V3.1混合专家（MoE）模型的相继发布，它们已成为智能前沿领域大语言模型（LLM）的领先架构。由于其庞大的规模（1万亿参数及以上）和稀疏计算模式（每个token仅激活部分参数而非整个模型），MoE式LLM对推理工作负载提出了重大挑战，显著改变了底层的推理经济学。

来自主题: AI技术研报

7991 点击 2025-09-03 11:22